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1. 总 结 了 事件 相关 电位 研究 中 统计 检验 力 的 影响 因素 、 分 析 方 法 及 应 用 实例 。 


2. 梳理 了 事件 相关 电位 研究 中 统计 检验 力 分 析 的 挑战 、 未 来 发 展 方向 与 建议 。 
摘 要 
统计 检验 力 是 评估 研究 结果 稳健 性 和 可 重复 性 的 关键 指标 之 一 ， 然 而 在 事件 相关 电位 研究 中 计 
算 和 报告 统计 检验 力 的 规范 性 和 完整 性 仍 有 待 加 强 。 本 文通 过 梳理 总 结 事件 相关 电位 研究 中 统计 检 
验 力 的 影响 因素 、 方 法 以 及 应 用 实例 等 ， 能 为 研究 者 设计 或 预 注册 事件 相关 电位 研究 方案 等 阶段 计 
算 和 报告 统计 检验 力 提供 参考 依据 。 
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Abstract 
Statistical power is one of the key indicators for assessing the robustness and replicability of research results. 
However, the standardization and completeness of calculating and reporting statistical power in event-related 
potential (ERP) studies still need improvement. This paper reviews and summarizes the factors influencing 
statistical power, methods for calculation, and application examples in ERP studies. It aims to provide 
researchers with a reference for calculating and reporting statistical power during the design or pre- 
registration stages of ERP research plans. 
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1 引言 

在 研究 可 重复 性 危机 背景 下 ( 盈 丹 丹 ， 王 浩 , SX, 2016; 胡 传 鹏 等 , 2016)， 研 究 结果 的 稳健 性 
(robustness) 和 可 重复 性 (reproducibility) 对 于 心理 学 研究 的 发 展 至 关 重 要 , 统计 检验 力 (statistical power) 
是 评估 研究 结果 可 靠 性 和 可 重复 性 的 关键 性 指标 之 一 ， 决 定 了 研究 结果 的 置信 水 平 (Fraley & Vazire, 
2014; Schweizer & Furley, 2016)。 统 计 检 验 力 是 指 当 零 假 设 oull hypothesis) 为 假 时 ， 统 计 测 验 正确 
拒绝 零 假 设 的 概率 ， 一 般 用 1-B 表示 ， 通 常设 置 为 0.8(Cohen, 1988)。 在 假设 检验 中 ， 统 计 检 验 力 分 
析 模 型 的 主要 参数 有 : 效应 量 (effect size)、 样 本 量 (sample size). 1 类 错误 率 (a) 和 II 类 错误 率 (B)。 先 
前 研究 已 对 参数 间 的 关系 、 各 个 参数 与 统计 检验 力 的 关系 以 及 常规 实验 情境 中 的 应 用 示例 进行 了 充 


分 的 梳理 和 总 结 (Sommet, Weissman, Cheutin, & Elliot, 2023; 彭 凡 , 张力 为 , 周 财 亮 , 2023; HW, 


李强 , BES BL, 2022; 胡 竹 其 , 2010; 胡 竹 其， 戴 海 琦 , 2011, 2017; 赵 礼 ， 王 晖 , 2019; Vankelecom, 


Loeys, & Moerkerke, 2024)， 本 文中 将 不 再 重复 前 述 。 以 常见 的 连续 变量 独立 样本 上 双 尾 检验 为 例 ( 计 


算 详情 见 附录 1， 在 线 访问 链接 为 ， https:/www.scidb.cn/anonymous/QTd2bVly)， 在 样本 量 和 a 水 平 
固定 的 情况 下 ， 随 着 效应 量 Cohen’sd 的 减 小 ， 统 计 检验 力也 将 同步 降低 ( 即 高 8 水 平 )。 简 言 之 ,在 
进行 统计 检验 力 分 析 时 ， 样 本 量 、 效 应 量 、I 类 错误 率 (和 II 类 错误 率 (B) 互 为 函数 ， 当 确定 其 中 3 
个 参数 的 数值 后 ， 就 可 以 通过 相应 的 算法 计算 出 第 4 个 参数 的 数值 。 且 对 于 不 同 的 统计 分 析 模 型 ， 
其 计算 方法 也 会 不 同 。 

H Cohen 指出 心理 学 研究 中 统计 检验 力 过 低 的 问题 后 (Cohen, 1962)， 越 来 越 多 的 研究 者 开始 关 
注 这 一 问题 及 其 所 带 来 的 影响 ， 然 而 该 问题 直到 现在 仍 未 得 到 妥善 解决 。 以 统计 检验 力 为 视角 回 
过 去 60 年 的 研究 发 现 ， 科 学 研究 领域 的 统计 检验 力 约 为 24% (Smaldino & McElreath, 2016)。 其 中 ， 
神经 科学 研究 领域 的 统计 检验 力 在 8%~31% 范围 之 间 (Button et al., 2013)， 意 味 着 在 I 类 错误 率 为 
5% 的 流行 前 提 下 ， 神 经 科学 研究 领域 的 II 类 错误 率 大 约 在 69%~92% 之 间 ， 远 远 高 于 倡导 的 I 类 错 
误 率 (Cohen's 20%)， 可 能 会 导致 研究 者 错过 许多 有 趣 的 研究 (loannidis, 2005; Munafo et al., 2017)。 
脑 电 技术 是 认 知 神经 科学 领域 中 极为 重要 和 被 研究 者 广泛 使 用 的 研究 工具 之 一 。 而 在 脑 电 研究 
中 ， 因 
于 研究 个 体 的 认 知 加 工 过 程 。 然 而 先前 元 分 析 发 现 的 大 量 ERP 研究 并 未 进行 适宜 的 统计 检验 力 分 
析 ， 从 而 导致 研究 的 统计 检验 力 较 低 ， 研 究 的 可 重复 性 差 (Clayson et al., 2019)。 其 原因 可 能 是 与 经 
典 的 统计 检验 力 分 析 过 程 相 比 ，ERP 研究 的 统计 检验 力 分 析 是 一 个 更 为 复杂 的 多 水 平 层级 模型 。 具 
体 来 说 : 
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件 相 关 电 位 (Event-related potential, ERP) 具 有 潜伏 期 和 波形 恒定 的 鲜明 特征 ， 一 直 被 广泛 用 


一 方面 ，ERP 研究 一 直 遵 循 实验 内 部 重复 原则 。 如 图 1 所 示 ， 在 开展 研究 的 过 程 中 通常 需要 反 
复 测量 被 试 在 特定 条 件 下 的 反应 , 随后 对 多 次 试 次 测量 结果 进行 平均 。 这 意味 着 对 于 单个 被 试 样本 ， 
采集 到 的 数据 实际 是 多 试 次 的 。 具 体 来 说 ， 研 究 者 可 以 通过 改变 被 试 数量 、 试 次 数量 和 随机 水 平等 
参数 来 影响 统计 检验 力 。 然 而 ， 先 前 的 ERP 研究 中 进行 统计 检验 分 析 时 , 研究 者 较 多 关注 需要 测 
多 少 个 被 试 (被 试 数量 ，number of subjects)， 在 一 定 程度 上 忽略 了 每 个 被 试 需要 完成 多 少 个 试 次 ( 试 
次 数量 ，number oftrials)， 并 不 加 以 报告 (Larson & Carbine, 2017)。 同 时 ， 由 于 时 间 、 科 研 经 费 等 成 
本 的 限制 ， 研 究 者 在 开展 研究 时 往往 需要 在 被 试 数量 和 试 次 数量 之 间 进 行 权衡 。 这 意味 着 即使 样本 
量 等 同 于 被 试 数量 ， 不 透明 的 试 次 数量 或 是 在 确定 试 次 数量 时 研究 者 们 使 用 模糊 的 ， 跨 研究 团体 变 
异 较 大 的 经 验 法 则 而 非 明确 的 计算 公式 或 方法 (Jensen & MacDonald, 2023; Larson & Carbine, 2017), 
以 及 统计 分 析 方 法 的 不 同 会 使 得 观测 到 的 变异 可 能 在 多 水 平 层级 上 包含 更 多 的 潜在 测量 误差 ， 从 而 
导致 统计 检验 力 的 降低 。 
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图 1 ERP 研究 中 被 试 内 实验 设计 经 典 示 意图 。 其 目的 是 测量 出 n 个 被 试 在 m 个 条 件 中 相应 脑 电 成 分 的 


成 功率 ， 以 及 每 个 被 试 在 每 个 条 件 下 的 个 试 次 (重复 )。 每 个 条 件 的 随机 水 平 (得 到 脑 电 成 分 的 概率 ) 等 


于 每 个 条 件 下 获得 脑 电 成 分 的 试 次 数量 除 以 总 试 次 数量 。 结 果 1 表示 观测 到 相应 的 脑 电 成 分 ， 结 果 0 表 


示 未 观测 到 相应 的 脑 电 成 分 。 可 以 使 用 两 种 统计 分 析 方 法 来 确定 成 功率 是 否 与 随机 水 平 有 显著 差异 : 1- 


对 每 个 被 试 每 个 条 件 下 的 成 功率 (连续 数据 ) 进 行 显著 性 水 平 检验 ，2- 对 总 体 成 功率 (离散 数据 ) 进 行 显著 


性 水 平 检验 。 由 图 可 知 ， 除 了 被 试 数量 之 外 ， 统 计 检验 力 还 可 能 受到 随机 水 平 、 每 个 被 试 在 每 个 条 件 下 
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另 一 方面 ， 相 较 于 相对 成 熟 的 量 表 均 值 或 反应 时 等 单 维 数据 ， 脑 电 数 据 作 为 一 种 特殊 的 多 维 
E 度 之 间 存 在 着 系统 关系 ， 对 这 
分 析 等 在 内 的 多 种 分 析 技 术 ( 赵 文 瑞 , EGE, BRA, EU, 
脑 电 数据 分 析 过 程 中 研究 者 的 实验 方案 (研究 者 感 兴趣 的 变 


间 序 列 数据 ， 在 频率 、 
生出 了 包括 时 域 分 析 、 


2020)。 


a. 


ffin] 


时 间 、 电 压 振 幅 等 


频谱 


因此 ， 类 似 于 模糊 的 试 次 数量 ， 


的 试 次 数量 以 及 统计 分 析 方 法 的 影响 。 


时 


不 同 数据 名 


分 析 、 时 频 


特征 提取 、 变 量 选 择 ) 同 样 会 引入 额外 的 误差 。 这 种 不 透明 性 同 术 
千 统 的 统计 检验 力 分 析 方 法 难 


检验 力 ， 致 使 
综 上 , Æ ERP & 


定 程度 


中 需要 对 被 试 数量 、 


进行 充分 说 明 (Paul, Govaart, & Schettino, 2021; 赵 加 全 


究 
为 繁复 ， 且 在 将 参数 间 的 内 在 关系 还 原 成 相应 的 计算 过 程 时 仍 极 
ERP 研究 中 统计 检验 力 分 析 的 影响 因素 (如 : 被 试 数量 、 
上 确保 适宜 的 统计 检验 力 和 实验 结 
Carbine, Baldwin, & Larson, 2019)。 此 外 ， 随 着 预 注册 (pre-register) 融 
试 次 数量 等 影响 统计 检验 力 的 研究 设计 要 


以 准确 适用 。 
以 多 水 平 层级 模型 为 视角 i 


文 些 关 系 的 探索 衍 


量 、 实 验 设 计 、 成 分 差异 )、 工 具 因 素 (通道 数量 ， 采 集 方案 ) 以 及 预 处 理 


决策 (分 析 技 术 、 信 号 处 理 与 


会 通过 影响 测量 误 


差 进而 影响 统计 


统计 检验 力 分 析 时 ， 
(挑战 。 现 有 研究 表明 ， 
试 次 数量 等 )， 并 进行 先 验 分 析 ， 可 以 在 一 
果 的 稳健 性 ， 从 而 降低 研究 的 可 重复 性 危机 (Clayson， 
度 的 推行 ,研究 者 在 预 注册 报告 


需要 考虑 的 输入 参数 较 
考虑 


Pr LD 
综合 


素 进行 明确 
5, RW, EIE, 2024)。 因 此 ， 本 研究 通过 


规划 ， 以 及 要 对 选取 依据 


梳 


理 总 结 事件 


相关 下 


相关 电位 


究 


统计 检验 力 分 析 的 影响 因素 、 方 法 


究 设 计 和 /或 预 注 


等 等 计 Fe 


和 报告 统计 检验 力 时 提供 


2 ERP 研究 中 统计 检验 力 分 析 的 影响 因素 


在 进行 ERP 研究 的 统计 检验 力 分 析 时 至 少 要 考 


度 ) 以 及 数据 分 析 等 层面 。 


以 及 应 用 实例 等 ， 
一 定 的 参考 依据 。 


能 为 研究 者 在 进行 


变量 、 被 试 数量 、 


案 )、 环 境 噪音 控制 等 方 


统计 分 析 方 法 等 方面 。 


对 


试 次 数量 、 研 究 设计 (被 试 内 、 
效应 量 大 小 /效应 幅 值 等 方面 。 实 验 实施 /数据 质量 控 表 
。 数 据 分 析 包 括 分 析 技 术 ( 时 域 分 析 内 的 相关 


被 试 


a). EE 


虑 到 实验 方案 、 实 验 实施 /数据 质量 控 和 
其 中 ， 实 验方 案 包 括 感 兴趣 的 ERP 成 分 本 身 的 特殊 之 处 /研究 者 感 兴趣 的 
等 实验 设计 )、 研 究 范 式 、 预 期 的 ERP 


BAA 行 梳理 后 发 现 ， 


Fi 


应 幅 值 (effect magnitude) 


[研究 设计 (study design) 4 个 因 


研究 者 目前 主要 关心 被 试 数量 、 
素 对 ERP 研究 统计 检验 力 分 析 的 影响 


IOUE 


(测量 精度 ) 包 括 工具 因素 (通道 数量 、 和 采集 方 


F 提 取 、 
效 


与 特 和 
试 次 数量 、 


技术 )、 信号 处 理 


(Boudewyn, Luck, Farrens, & Kappenman, 2018; Gibney et al., 2020; Hall et al., 2023; Jensen & MacDonald, 


2023; Ngiam, Adam, Quirk, Vogel, & Awh, 2021). 


2.1 被 试 数 量 


被 试 数量 指 参与 研究 的 受 试 者 数量 ， 作 为 统计 检验 力 分 析 模型 的 核心 参数 ， 其 数量 的 增加 会 显 
著 提 高 研究 统计 检验 力 。 在 ERP 研究 中 ， 小 被 试 数量 是 导致 低 统计 检验 力 的 直接 原因 。 在 进行 统计 
检验 力 分 析 时 ， 相 比 于 试 次 数量 的 增加 ， 被 试 数量 的 增加 对 统计 检验 力 水 平 提高 的 作用 更 大 (Gibney 
et al., 2020)。 例 如 : Gibney 等 人 (2020) 研 究 发 现 ， 在 被 试 间 实 验 设计 中 ， 若 每 组 被 试 数量 为 10 名 ， 
则 得 到 真实 显著 结果 的 可 能 性 极 低 。 


2.2 试 次 数量 


试 次 数量 作为 统计 检验 力 分 析 模 型 的 男 一 个 重要 参数 ， 是 指 研究 者 能 够 采集 到 符合 研究 需求 数 


据 时 相对 较 少 的 重复 测量 次 数 。 


ERP 在 脑 电 信号 中 相对 较 小 ， 研 究 者 一 般 通 过 平均 特定 事件 的 多 个 


试 次 后 将 ERP 从 脑 电 信号 中 提取 出 来 。 因 此 ， 信 品 比 (Signal-Noise Ratio, SNR; 脑 电 数据 中 信号 水 


W. Zhang & Kappenman, 2024) 


平 与 噪声 水 平 的 比值 ) 是 影响 ERP 研究 统计 检验 力 的 重要 因素 (Clayson et al., 2013; Kim et al., 2023; 


， 而 信 噪 比 会 随 着 用 于 平均 的 试 次 数量 的 平方 根 的 增加 而 提升 


(Boudewyn et al., 2018)。 具 体 来 说 ， 在 其 它 条 件 相 同 的 情况 下 ， 被 用 于 平均 的 试 次 数量 越 多 ， 数 据 
的 信 噪 比 就 越 高 ， 从 而 提升 研究 的 效应 量 和 统计 检验 力 。 研 究 发 现 ， 在 被 试 数量 较 少 且 效应 量 中 等 


时 ， 试 次 数量 提高 约 一 倍 左右 能 有 效 地 提升 研究 的 统计 检验 力 ， 并 使 其 达到 合适 水 平 (Boudewyn et 


al., 2018)。 
2. 3 效应 幅 值 
效应 幅 值 是 指 以 微 伏 


|A 条 件 的 ERP 成 分 平均 波幅 幅 值 ~ B 条 件 的 ERP 成 分 平均 波幅 幅 值 |。 在 ERP 研究 中 , 效应 量 通常 


为 单位 效应 的 绝对 值 大 小 。 有 具体 来 说 ， 效 应 幅 值 CaV) = 


是 不 同 条 件 下 ERP 波幅 的 差异 ( 


al., 2018)。 例 如 : 以 被 试 内 实验 


效应 幅 值 )。 研 究 表明 ， 效 应 幅 值 与 所 需 的 试 次 数量 成 反比 ， 效 应 幅 


值 较 大 的 ERP 成 分 往往 只 需 少量 的 试 次 就 能 得 到 稳定 的 统计 检验 力 (Baker et al., 2021; Boudewyn et 


设计 为 例 ， 若 条 件 间 ERP 成 分 的 效应 幅 值 很 大 时 ， 被 试 数量 和 试 次 


数量 的 增加 或 减少 对 统计 检验 力 的 影响 较 小 ， 当 ERP 成 分 的 效应 幅 值 在 中 等 水 平时 , 被 试 数量 和 试 


次 数量 的 变化 对 统计 检验 力 的 变化 有 很 大 的 影响 ， 此 外 ， 若 试 次 数量 足够 多 ,但 ERP 成 分 的 效应 幅 
值 较 小 时 ， 通 过 被 试 数量 的 增加 也 能 够 得 到 合适 的 统计 检验 力 。 


2.4 研究 设计 


研究 设计 是 指 实施 实验 处 到 


的 一 个 计划 方案 (如 : 被 试 内 /被 试 间 / 混 合 设计 等 ) 以 及 与 计划 方案 有 


关 的 统计 分 析 ( 如 : 上 检验 、 方 差分 析 、 线 性 模型 分 析 等 )。 有 具体 来 说 ， 研 究 者 需要 在 研究 开始 前 需 明 


=f 


有 实验 的 处 理 水 平 。 一 般 情 况 下 ， 实 验 处 理 水 平 越 多 所 需要 的 被 试 数量 和 试 次 数量 就 越 多 。 如 图 2 


所 示 ， 在 效应 幅 值 相同 的 情况 下 ， 统 计 检 验 力 的 变化 在 被 试 内 设计 中 取决 于 试 次 数量 的 变化 ， 而 在 


被 试 间 设计 中 取决 于 被 试 数量 的 变化 。 换 言 之 ， 在 相同 效应 幅 值 下 ， 被 试 内 设计 得 到 稳定 统计 检验 
力 所 需 的 试 次 数量 更 少 。 例 如 : 在 被 试 内 设计 的 数据 模拟 研究 中 ， 试 次 数量 加 倍 后 可 以 将 统计 检验 


至 少 提升 1 倍 ， 而 被 试 数量 加 倍 的 对 统计 检验 力 的 影响 则 较 小 Jensen & MacDonald, 2023). 


被 试 内 设计 被 试 间 设计 


图 2 被 试 内 实验 设计 和 被 试 间 实 验 设 计 模 拟 结 果 的 部 分 关键 内 容 示意 图 。 被 试 内 设计 试 次 数量 对 统计 


检验 力 的 影响 更 显著 (++)。 被 试 间 设计 被 试 数 量 对 统计 检验 力 的 影响 更 显著 (++)。 当 效应 幅 值 存在 地 板 


效应 和 /或 天 花 板 效 应 (虚线 所 示 ) 时 ， 即 效应 幅 值 过 大 或 过 小 ， 增 加 被 试 数量 和 /或 试 次 数量 对 统计 检验 


力 的 影响 不 大 。 图 改编 自 Jensen & MacDonald, 2023 

3 ERP 研究 中 统计 检验 力 分 析 方 法 及 应 用 实例 

统计 检验 力 分 析 主 要 基于 虚无 假设 显著 性 检验 (Null Hypothesis Significance Test, NHST), Mit 
对 核心 参数 进行 不 同 组 合计 算 , 从 而 使 统计 检验 力 水 平 达到 预 设 标准 (刘表 等 ,2024)。 在 实证 研究 中 ， 
受 时 间 和 经 费 等 科研 成 本 的 限制 ， 事 先 科 学 合理 地 规划 样本 量 是 统计 检验 力 分 析 的 核心 内 容 之 一 
(Lakens, 2022)。 因 此 ， 在 ERP 研究 中 进行 样本 量规 划 时 ， 研 究 者 需要 以 多 水 平 层 级 模型 为 视角 (如 
图 1 所 示 ) 综 合 考 量 在 不 同 研究 设计 中 被 试 数量 、 试 次 数量 、 效 应 幅 值 等 影响 因素 在 统计 检验 力 上 的 
相互 关系 , 从 而 获得 样本 量规 划 的 最 优 解 。 为 了 获得 这 一 最 优 解 , 研究 者 尝试 通过 事后 模拟 (Post-Hoc 


Simulations)、 蒙 特 卡 洛 模拟 (Monte Carlo Simulations) 和 检验 力 等 高 线 图 (Power Contours Plot) 等 方法 
分 析 ERP 研究 中 的 统计 检验 力 。 同 时 ， 上 述 方法 各 有 侧重 点 : 事后 模拟 主要 关注 在 研究 中 获得 ERP 
成 分 的 最 低 试 次 数 (Thigpen et al., 2017); 蒙特 卡 洛 模拟 则 侧重 于 通过 灵活 组 合 被 试 数量 、 试 次 数量 、 
效应 幅 值 和 实验 设计 等 参数 以 得 到 不 同 的 统计 检验 力 分 析 模 型 ， 并 在 得 到 模型 后 进行 统计 检验 力 分 


析 (Boudewyn et al., 2018); 检验 力 等 高 线 图 则 在 充分 考虑 测验 精度 (measurement precision) 和 样本 标 


准 差 (Sample Standard Deviation, os) 影响 的 前 提 下 (Nebe et al., 2023)， 动 态 调整 被 试 数 量 和 试 次 数 


量 从 而 得 到 适宜 的 统计 检验 力 (Baker et al., 2021)。 此 外 ， 使 用 上 述 方法 进行 统计 检验 力 分 析 时 需要 
在 相应 的 预 实验 脑 电 数 据 或 者 已 有 的 脑 电 数据 集 上 进行 。 
3.1 事后 模拟 


事后 模拟 的 目的 是 研究 者 基于 已 有 数据 如 何 稳定 地 估计 出 特定 的 ERP 成 分 ， 如 果 以 得 到 特定 
ERP 成 分 的 波幅 作为 目标 ， 本 质 上 类 似 于 对 简单 的 线性 模型 的 参数 恢复 (或 单 样本 t 检验 的 统计 模 


型 ), 即 某 个 实验 刺激 是 否 能 引起 了 某 个 ERP 波形 , 需要 多 少 次 重复 能 将 这 个 波形 稳定 地 估计 出 来 。 


该 方法 的 具体 步骤 是 : 通过 进行 预 实验 获得 研究 需要 的 ERP 成 分 ， 然 后 将 已 经 获得 稳健 ERP 成 分 
的 试 次 数量 作为 总 体 (K), 随后 从 总 体 中 抽取 一 定数 量 试 次 的 脑 电 数据 作为 子 样本 (k), BE 
进行 平均 ， 并 将 平均 样本 数据 后 ERP 成 分 与 总 体 样本 的 ERP 成 分 进行 对 比 。 不 断 重复 上 述 过 程 ， 
直到 在 子 样本 中 得 到 与 总 体 相当 的 ERP 成 分 ， 并 确定 子 样本 的 试 次 数量 ， 该 试 次 数量 大 小 即 为 获得 
该 ERP 成 分 所 需 的 最 少 试 次 数量 。 总 体 与 子 样 本 的 相似 性 通过 相关 系数 、 内 部 一 致 性 系数 (Olvet & 


Hajcak, 2009; Thigpen, Kappenman, & Keil, 2017)、 重 测 信 度 (Hufftmeijer Bakermans-Kranenburg, Alink, 


133) 


& Van IJzendoorn, 2014; Segalowitz & Barnes, 1993) 以 及 等 值 性 (Marco-Pallares, Cucurell, Miinte, Strien, 


& Rodriguez-Fornells, 2011; Pontifex et al., 2010) 等 指标 进行 评估 。 例 如 : 以 内 部 一 致 性 系数 为 例 
当 内 部 一 致 性 系数 超过 0.90 表示 一 致 性 极 高 ,0.70-0.90 表示 较 高 的 一 致 性 ，0.50-0.70 表示 中 等 程度 
的 一 致 性 ， 而 低 于 0.50 表示 一 致 性 差 。Thigpen 等 (2017) 以 内 部 一 致 性 系数 作为 测量 指标 ， 采 用 事 
后 模拟 的 方法 对 获得 Pl、N1 和 P3 成 分 的 最 低 试 次 数量 进行 模拟 。 在 进行 事后 模拟 时 ， 抽 取 不 同 的 
试 次 数量 (10~80, 步 长 为 10) 的 脑 电 数 据 为 子 样本 , 随后 对 子 样本 进行 琶 加 平均 后 相应 成 分 的 平均 振 
幅 值 、 信 噪 比 等 ， 并 与 总 体 (80 次 左右 ) 登 加 平均 后 相应 成 分 的 平均 振幅 、 信 噪 比 进 行内 部 一 致 性 比 
较 。 结 果 发 现 ， 当 子 样本 中 的 试 次 数量 到 达 40 次 或 以 上 时 ， 子 样本 与 总 样本 ERP 成 分 的 内 部 一 致 
性 系数 达到 0.8 以 上 。 结 果 表 明 ， 实 际 研究 中 至 少 40 个 试 次 就 能 得 到 相对 稳健 的 PI、N1 和 P3 成 
分 ， 并 不 需要 80 个 试 次 。 


在 应 用 实例 方面 , 事后 模拟 被 运用 于 ERP 研究 领域 中 确定 错误 相关 负 波 (error-related negativity , 


tin 


ERN), error positivity (Pe), N100, N200, vertex positive potential (VPP)/N170， 失 匹配 负 波 (mismatch 


negativity , MMN), 反馈 相关 负 波 (feedback-related negativity , FRN), 晚期 正成 分 (late positive 


potential , LPP) 和 P300 等 ERP 成 分 的 试 次 数量 (Duncan et al., 2009; Fischer, Klein, & Ullsperger, 2017; 


Huffmeijer et al., 2014; Jill Cohen & Polich, 1997; Larson, Baldwin, Good, & Fair, 2010; Marco-Pallares et 
al., 2011; Olvet & Hajcak, 2009; Pontifex et al., 2010; Rietdijk, Franken, & Thurik, 2014; Segalowitz & 
Barnes, 1993; Steele et al., 2016; Thigpen et al., 2017). 

事后 模拟 能 为 研究 者 获得 单个 稳健 ERP 成 分 所 需 的 最 少 试 次 数量 提供 计算 依据 , 在 一 定 程度 上 
降低 ERP 研究 的 时 间 成 本 。 但 其 只 解决 了 试 次 水 了 数量 规划 ,无 法 适用 于 更 为 复杂 的 实验 情 
境 。 


Ni 
MU 
还 


3. 2 蒙特 卡 洛 模拟 


相 较 于 事后 模拟 ， 蒙 特 卡 洛 模拟 则 是 通常 的 统计 检验 力 分 析 思 路 ， 即 基于 特定 统计 模型 中 茶 个 


参数 的 效应 量 进行 模拟 和 分 析 ， 在 特定 模型 ， 
的 统计 检验 力 估计 。 在 ERP 研究 中 ， 


en 


同时 获得 


究 者 通过 对 被 试 数量 、 


试 次 、 条 件 和 被 试 等 多 个 参数 不 同 组 合 情 况 
试 次 数量 、 效 应 幅 值 和 研究 设计 等 进 


行动 态 组 合 ， 从 而 灵活 定义 统计 检验 力 分 析 模 型 。 蒙 特 卡 洛 模拟 的 主要 原理 是 通过 指定 虚拟 总 体 (分 


布 ) 以 生成 虚拟 样本 (抽样 )。 在 关 了 
集 到 的 脑 电 数 据 作 为 指定 总 体 ， 并 添加 了 人 了 


F ERP 研究 的 蒙特 


FE 洛 模拟 中 , 研究 者 使 用 预 实验 或 者 先前 研究 采 
[效应 (artificial effects)， 从 而 为 被 试 内 和 被 试 间 的 分 析 


获取 真实 的 效应 幅 值 (Kiesel, Miller, Jolicgeur, & Brisson, 2008; Smulders, 2010; Ulrich & Miller, 2001). 


基本 步骤 为 : 如 图 1 所 示 , 在 被 试 数量 样本 (N) 中 有 放 回 


| 取 个 被 试 。 然后 在 这 些 抽取 出 来 


的 被 试 ， 他 们 各 自 的 所 有 有 效 试 次 中 随机 抽取 m ZAR EE, 每 组 k 个 试 次 。 随 后 分 别 对 每 组 的 k 个 试 
次 进行 琶 加 平均 ， 紧 接着 对 组 间或 条 件 间 数据 分 别 术 


统计 分 析 方法 (如 ，! 检验 ) 


行 差 异性 检验 。 对 于 每 和 


到 相应 的 效应 幅 值 。 之 后 用 相应 的 


、 试 次 数量 和 效应 幅 值 的 组 合 条 件 进 


行 1000 次 模拟 ， 计 算 每 种 组 合 条 件 在 1000 次 的 模拟 中 达到 显著 的 可 能 性 。 例 如 : Boudewyn 等 人 


(2018) 对 ERN 成 分 进行 蒙特 卡 洛 模拟 。 其 3 
F 采 集 到 的 40 名 被 试 的 脑 电 数据 ,采用 蒙特 卡 洛 模拟 的 方式 模 
FE 洛 模拟 结果 发 现 ， 当 被 试 数量 超过 


CES, 并 同步 采集 脑 电 数据 。 随 后 基 
WT 1000 个 数据 ， 最 后 对 1000 个 数据 进行 分 析 比 较 。 蒙 特 - 


要 方法 是 通过 让 40 名 被 试 完 成 400 个 Trials 的 Flanker 


10 个 时 ， 只 需要 6 个 试 次 就 可 以 获得 稳定 的 统计 检验 力 在 0.8 以 上 的 ERN 成 分 。 在 不 同 实验 设计 


中 ， 以 zt 检验 为 例 ， 在 不 同 效应 幅 值 条 件 下 所 需要 的 被 试 数量 和 试 次 数量 显著 不 同 。 在 被 试 内 实验 
设计 中 ， 要 达到 0.8 以 上 的 统计 检验 力 ， 当 被 试 数量 均 为 20 人 时 ， 在 效应 幅 值 为 4 uV 条 件 时 ， 只 


需要 8 个 试 次 ， 而 当 效 应 


值 为 2 uV 时 ， 需 要 16 个 试 次 。 在 被 试 间 实验 设计 中 ， 要 达到 0.8 以 上 
的 统计 效力 ， 当 试 次 数量 均 为 6 个 时 ， 在 效应 幅 值 为 7 kV 条件 时 ， 只 需要 16 个 被 试 ， 而 当 效应 幅 


值 为 5 pV 条 件 时 ， 则 需要 32 个 被 试 。 


在 应 用 实例 上 , 蒙特 卡 洛 模 拟 分 析 被 运用 于 事件 相关 电位 研究 领域 中 LRP、ERN、N170、MMN、 


P3、N2pc、N400、CDA、N1、Tb、P2 等 ERP 成 分 的 统计 检验 力 分 析 (Boudewyn etal., 2018; Gibney 


et al., 2020; Hall et al., 2023; Jensen & MacDonald, 2023; Ngiam et al., 2021)。 同 时 ， 为 了 能 让 研究 者 在 


实际 研究 中 应 用 该 方法 ，Hall 等 人 (2023) 提 供 了 在 线条 


序 ERP Power Calculator( 访 问 链接 为 : 


https://bradleynjack.shinyapps.io/ErpPowerCalculator/), 事件 相关 电位 研究 中 听觉 领域 的 研究 者 可 以 通 


过 选择 特定 的 ERP 成 分 (N1/Tb/P2)、 试 次 数量 (20~1000)、 被 试 数量 (10~100)、 效 应 幅 值 (0~3 uV) X 
说 


验 设计 (被 试 内 /被 试 间 )、alpha 水 平 (0.05/0.01/0.005/0.001) 等 参数 来 计算 研究 的 统计 检验 力 。 在 视觉 


https://williamngiam.shinyapps.io/CDAPower/), 可 以 通过 选择 感 兴趣 的 效应 (稳健 CDA 


2 v.s 4/idiZ fifa 2v.s6), Rix 


Xİ LRP, ERN, N170, MMN., P3, N2pc. N400 七 个 ERP 成 分 通过 动态 组 合 被 试 数量 、 试 次 数量 、 


周 整 被 试 数量 、 


效应 幅 值 以 及 实验 设计 等 参数 模拟 计生 


3.3 检验 力 等 高 线 图 


干净 i 


工作 记忆 领域 ，Ngiam 等 人 (2021) 提 供 了 在 线程 序 CDA Power Calculator( 访 问 链接 为 : 


成 分 /记忆 负荷 


式 次 数量 、 统 计 检 验 力 等 参数 之 间 的 组 合 来 计算 


相应 的 指标 。Jensen 和 MacDonald(2023) 在 OSF 平台 (访问 链接 为 : https:/osf'io/wv3da/) 公 开 共 享 了 


统计 检验 力 的 代码 资源 。 


如 前 所 述 ， 除 被 试 数量 、 试 次 数量 、 效 应 幅 值 和 实验 设计 外 ， 我 们 应 再 次 关注 测量 精度 (真实 分 
数 /总 分 数 跨 试 次 的 均值 )， 即 通过 测量 误差 影响 统计 检验 力 的 关键 指标 (Nebe et al., 2023)。 在 该 部 


分 中 ， 测 量 精度 指 重复 测量 共有 


上 述 试 次 数量 、 工 具 、ERP 成 分 差异 等 多 个 因素 相关 。 在 ERP 研究 中 ， 


定 真实 得 分 的 变量 并 获得 


:相似 结果 的 能 力 (Cumming, 2014)， 其 与 
ERP 成 分 的 潜伏 期 和 波形 


并 不 具有 严格 的 一 致 性 和 稳定 性 ， 从 而 导致 ERP 成 分 在 时 间 、 个体 间 和 试 次 间 的 产生 误差 ， 而 这 


= 


Jl 


量 误差 的 增加 会 降低 研究 的 统计 检验 力 (Nebe et al., 2023). 


Baker 等 (2021) 提 出 了 检验 力 等 高 线 图 ， 其 本 质 是 对 一 些 特殊 统计 模型 的 蒙特 卡 洛 模拟 结果 的 


可 视 化 。 它 的 主要 特点 是 把 被 试 内 与 被 试 间 的 变异 
种 实验 情境 结合 而 进行 蒙特 卡 洛 模 型 。 具 言 之 ， 如 图 3 所 示 ， 检 验 力 等 高 线 图 在 考虑 


区 分 开 ， 内 在 的 统计 模型 是 层级 模型 ， 将 其 与 各 


个 体内 测量 误 


差 (within-participant variance，ow) 和 个 体 间 测量 误差 (between-participants variance，ob) 等 样本 标准 差 


约束 下 , 动态 调整 被 试 数量 和 试 次 数量 并 计生 

并 将 相同 检验 力 的 被 试 数量 (N) 和 试 次 数量 (k) 组 合成 的 点 连 成 等 高 线 ，| 

力 水 平 (Baker et al., 2021)。 在 实际 研究 中 ， 研 究 者 可 以 通过 检验 力 等 高 线 在 被 试 数量 和 试 次 数量 包 
EA 


相应 的 统计 检验 力 , 直到 计算 的 结果 值 达到 预 设 标准 。 
j 多 条 等 高 线 表 示 不 同 检验 


权衡 过 程 中 找到 一 个 检验 力 的 理想 结合 点 ， 从 而 根据 实际 情况 选取 适宜 的 被 试 数 量 和 试 次 数量 。 检 
验 力 等 高 线 在 保证 样本 量 满足 统计 检验 力 等 要 求 的 同时 又 尽 可 能 降低 研究 成 本 。 例 如 : Baker 等 人 


(2021) 基 于 已 有 的 脑 电 数据 ， 对 得 到 P100、N600 成 分 被 的 试 数量 和 试 次 数量 进行 如 
等 统计 检验 力 水 平 下 ， 当 样本 偏差 较 小 时 ，P100 成 分 的 统 
。N600 成 分 的 统计 检验 力 很 大 程度 | 


应 的 统计 检验 力 等 高 线 。 结 果 发 现 ， 在 同 
计 检 验 力 随 被 试 数量 和 试 次 数量 的 增 
量 ， 而 当 试 次 数量 相对 较 少 (kK 二 200) 时 ， 可 以 通过 增加 试 次 数量 来 降低 被 试 数 量 。 


由 


加 而 增加 
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抽样 ， 并 绘制 相 


上 取决 于 被 试 数 


单个 被 试 的 试 次 数量 Ck) 


被 试 数量 (N) 


图 3 检验 力 等 高 线 图 示意 图 ( 彩 图 见 网 络 版 )。 其 中 被 试 数量 (N) 的 取 值 范围 为 0~30， 试 次 数量 (k) 的 取 
值 范围 为 0~600，a 水 平 为 0.05， 平 均 差异 (Mean difference) 为 1.32 ， 个 体内 测量 误差 为 12 uV; MRE 
测量 误差 为 1.1 AV， 绿 色 点 表示 在 上 述 条 件 下 统计 检验 力 达 到 80% 时 被 试 数量 和 试 次 数量 的 权衡 过 程 中 


的 理想 结合 点 ， 此 时 被 试 数 量 为 16， 试 次 数量 为 79。 示 意图 采用 Baker 等 人 (2021) 开 发 的 在 线程 序 
Power contour estimation 生成 。 
在 应 用 实例 上 , 统计 检验 力 等 高 线 图 被 运用 于 计算 事件 相关 电位 研究 领域 中 P100、P200、N600 
等 ERP 成 分 以 及 Alpha 频段 (8~12 Hz) 的 被 试 数量 和 试 次 数量 的 理想 结合 点 (Baker et al., 2021)。 同 


时 ,为 了 方便 研究 者 使 用 该 方法 来 确定 实际 研究 中 的 被 试 数量 和 试 次 数量 ，Baker 等 人 (2021) 等 人 开 


发 了 在 线程 序 Power contour estimation( 访 问 链接 为 : https://shiny.york.ac.uk/powercontours/)， 通 过 输 


11 


入 被 试 数量 、 试 次 数量 、 


alpha 水 平 、 均 值 差异 、 被 试 内 标准 差 、 被 试 间 标 准 差 、 招 募 成 本 等 参数 来 


计算 研究 的 统计 检验 力 ， 以 及 实际 研究 中 被 试 数量 和 试 次 数量 的 理想 结合 点 。 
4 ERP 研究 中 统计 检验 力 分 析 的 挑战 
已 有 研究 系统 地 探讨 被 试 数量 、 试 次 数量 、 效 应 幅 值 和 实验 设计 等 因素 通过 交互 方式 影响 统计 


检验 力 (Boudewyn et al., 2018; Gibney et al., 2020; Hall et al., 2023; Jensen & MacDonald, 2023; Ngiam 


et al., 2021)。 但 在 未 来 的 研究 ， 


还 应 该 关注 以 下 四 点 : 


4. 1 关注 研究 中 可 能 出 现 的 天 花 板 效应 和 /或 地 板 效应 
先前 研究 上 友 现 ， 统 计 检 验 力 会 随 着 被 试 数量 和 试 次 数量 的 变化 而 变化 ， 而 当 统 计 检验 力 出 现 天 


花 板 效 应 或 地 板 效 应 时 ， 被 试 数量 和 试 次 数量 


et al., 2018)。 


的 变化 对 统计 检验 力 的 影响 就 微乎其微 了 (Boudewyn 


4.2 关注 事件 相关 电位 研究 中 信 品 比 对 统计 检验 力 的 影响 


以 往 研究 对 测量 精度 的 考量 主要 关注 试 次 数量 这 
降低 同样 也 不 容 忽视 。 脑 电 研究 强调 的 信 噪 比 (噪声 水 平 )， 


的 降低 。ERP 研究 中 的 信 噪 比 会 受到 丰 


集 环 境 和 设备 、 电 阻 水 


核心 因素 ， 但 其 他 因素 所 导致 的 测量 精度 的 


即 测量 精度 问题 ， 同 样 会 导致 统计 检验 力 


完 范 式 ( 实 验方 案 )、 脑 电 数据 采集 (工具 因素 ， 如 : 不 同 的 采 


平等 )(Kappenman & Luck, 2010; Laszlo et al., 2014; Luck & Kappenman, 2017; 


Puce & Hämäläinen, 2017), 信号 处 理 与 特征 提取 (Clayson et al., 2021; Delorme, 2023; Sandre et al., 2020; 


G. Zhang, Garrett, & Luck, 2024a, 2024b; G. Zhang, Garrett, Simmons, et al., 2024; G. Zhang & Luck, 2023) 


以 及 统计 检验 方法 (Luck & Gaspelin, 2017) 的 影响 。 然 而 ， 


数据 中 真实 的 信 噪 比 水 


蒙特 卡 洛 模拟 无 法 有 效 的 模拟 出 每 个 脑 电 


平 。 值 得 强调 的 是 ， 对 于 信号 -变量 数据 转换 管道 , 研究 者 主观 或 不 经 意 的 决 


策 (如 : 采用 不 同 的 处 理 


与 分 析 管 道 等 ) 也 可 能 会 导致 假 阳 


述 列 出 的 影响 信 噪 比 的 


其 他 因素 同 检 


性 结果 (Luck & Gaspelin, 2017)。 因 此 ， 上 


fF 是 未 来 统计 检验 力 研究 探索 的 一 个 重要 方向 。 


4. 3 需要 在 更 复杂 的 实验 情境 进一步 验证 事件 相关 电位 研究 中 统计 检验 力 的 影响 因素 


己 有 研究 模拟 了 被 试 内 和 被 试 间 实 验 设计 1 


被 试 数量 、 试 次 数量 以 及 效应 幅 值 与 统计 检验 力 的 


关系 (Boudewyn et al., 2018; Gibney et al., 2020; Hall et al., 2023; Jensen & MacDonald, 2023; Ngiam et 


al.,2021)。 由 于 脑 电 数据 质量 在 研究 范式 、 被 试 间 、 测量 指标 之 间 会 有 差异 (G. Zhang & Luck, 2023), 


EL AS 34 


因此 ， 己 有 的 研究 结论 


ÆA 


] 于 更 复杂 的 实验 设计 (如 : 


混合 实验 设计 等 )、 分 析 方 法 (如 : 多 因素 


分 析 、 大 规模 单 变量 分 析 、 混 合 效应 模型 等 ) 以 及 不 同 的 样本 群体 、 实 验 范 式 中 ， 仍 需 进一步 验证 。 
4.4 在 推广 和 应 用 已 有 研究 结论 时 要 持 审慎 态度 
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时 ， 可 能 还 要 考虑 除 振幅 外 的 其 他 


该 更 加 充分 考虑 和 衡量 ERP 研究 ! 


适用 的 统计 检验 分 析 方 法 和 计算 工具 。 


因为 现 有 的 研究 结论 来 源 是 对 特定 ERP 成 分 平均 振 由 
拟 计算 的 结果 是 一 种 相对 理想 的 结果 ， 
据 集 或 数据 分 析 方法 中 。 如 : 在 ERP 4 


吕 幅 值 进行 数据 模拟 计算 后 的 结果 。 数 据 模 


因此 可 能 无 法 推广 到 与 模拟 计算 数据 集 有 明显 区 别 的 其 它 数 
完 中 将 成 分 的 潜伏 期 作为 测量 指标 或 采用 时 频 分 析 等 方法 


影响 统计 检验 力 的 其 它 潜在 因素 , 进一步 发 展 和 推出 台 


5 ERP 研究 中 统计 检验 力 分 析 未 来 发 展 方向 与 建议 


在 对 ERP 研究 结果 稳健 性 和 可 习 


E 复 性 受到 挑战 的 现状 的 思考 


因素 “如 : 相位 等 ) 对 统计 检验 力 的 影响 。 因 此 未 来 的 研究 中 应 


ERATZ 


, 越 来 越 多 研究 者 开始 关注 低 统 


计 检 验 力 的 研究 所 带 来 的 消极 影响 ,并 提出 事先 进行 统计 检验 力 分 析 来 规避 这 一 风险 。 在 ERP 研究 


中 ， 研 究 的 统计 检验 力 对 作者 和 读者 都 具有 习 
段 ， 充 分 发 挥 ERP 研究 统计 检验 力 分 析 的 积极 作 


上 投入 成 本 的 可 能 性 ， 需 要 各 方 人 员 共 同 努 力 。 


5.1 科学 合理 的 规划 样本 量 


要 意义 ， 如 何在 研究 者 在 设计 和 /或 预 注 


在 进行 实验 设计 时 ， 研 究 者 就 需要 以 适宜 的 方式 提前 规划 好 样本 量 。 对 于 样本 量 的 规划 方案 是 


统计 检验 力 分 析 的 核心 内 容 之 一 ， 关 于 忆 


(Lakens, 2022; Sommet et al., 2023). 7EJ 


& MacDonald, 2023; Ngiam et al., 2021). 


本 量规 划 的 一 般 原 则 已 有 前 人 研究 总 结 完善 ， 


的 序列 分 析 也 是 一 个 重要 的 替代 方法 ( 郑 元 瑞 ， 明 传 鹏 , 2023)。 


5. 2 准确 全 面 的 报告 内 容 ， 谨 导报 告 推广 性 结论 
研究 者 需要 认识 到 脑 电 研究 , 特别 是 ERP 研究 的 重复 性 问题 。 


E 册 研究 方案 阶 
3， 不 断 优化 研究 方案 ， 降 低 在 低 统计 检验 力 研究 


不 再 资 述 


开展 ERP 研究 时 ， 建 议 使 用 蒙特 卡 洛 模拟 或 者 检验 力 等 高 线 
图 进行 样本 量规 划 (Baker et al., 2021; Boudewyn et al., 2018; Gibney et al., 2020; Hall et al., 2023; Jensen 


此 外 ， 除 了 通过 事先 规划 的 样本 量 之 外 ， 基 于 贝 叶 斯 因子 


由 于 认 知 神经 科学 需要 考量 的 实 


验 条 件 和 工具 繁复 ， 测 量 模 式 复 杂 ， 研 究 者 需要 全 面 报告 已 知 的 所 有 实验 条 件 和 参数 ， 为 可 重复 性 


和 和 寻找 统计 检验 力 问 题 提供 切实 的 元 数据 ( 罗 一 ， 


Bw, 


HARER ERRERA, FEE E. 


5.3 采用 已 知 的， 同行 认 可 的 方案 开展 研究 


研究 者 也 需要 认识 到 循 证 的 


E 


He, 
x 


Py 


EIX, 2021)。 同 时 ， 研 究 者 


需要 认识 


E, 在 进行 文献 调研 时 ,任何 对 于 前 人 研究 的 改动 (例如 兴趣 区 


域 与 通道 位 置 ) 都 需要 提供 相 实 的 依据 (Dien, 2017)， 和 避免 基 于 已 有 数据 的 后 验 分 析 (data-driven)。 
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附录 1 统计 检验 力 分 析 : 以 常见 的 独立 样本 t 双 尾 检验 (连续 变量 ) 为 例 

如 附 图 1 所 示 ， 黑 色 区 域 为 BUI 类 错误 率 )， 红 色 区 域 为 al 类 错误 率 )，t 分 布 临界 值 (teig 为 
红色 区 域 的 截断 点 。 注意, 在 ga=0.05 时 ,意味 着 截断 点 为 ut 所 代表 的 分 布 两 侧 的 2.5% 面 积 。 并 
FL, ¢ 分 布 的 形状 由 自由 度 (df) 和 非 中 心 参数 (6) 决定 ， 因 此 样本 量 也 会 影响 terio 


Cohen's d: 0.63 


5% 20% 80% 20 
Type | error Type ll error Power Sample size 


附 图 1 统计 检验 力 和 显著 性 检验 示意 图 。 其 中 样本 量 (n) 为 20， 显 著 性 水 平 (q) 为 0.05， 统 计 检 验 


力 (1-B) 为 0.8， 效 应 量 (Cohen’s d) 为 0.63。 示 意图 由 Kristoffer Magnusson 开发 的 交互 式 网 页 


(https://rpsychologist.com/d3/nhst/) 生 成 。 
在 具有 参数 值 6 的 模型 中 ， 检 验 过 程 的 统计 检验 力 ( 功 效 /Power) 函 数 是 Po(Reject) ， 其 中 0 
代表 统计 检验 的 各 项 参数 ， Po(Reject) ”代表 拒绝 原 假设 ( Ho ) 的 概率 。 对 于 独立 样本 上 检验 的 双 尾 


检验 ， Ho 假设 两 个 独立 样本 的 总 体 均值 无 显著 差异 ( Ho:h=p2)， 备 择 假设 为 均值 有 显著 差异 


(Han: Mio( 双 尾 ) 。 如 附 图 1 所 示 ， Po(Reject) 实际 为 备 择 假设 分 布 中 被 ter 截断 的 右 侧 部 
分 ， 左 侧 黑 色 部 分 为 B。 由 于 概率 密度 函数 的 总 和 为 1， 因 此 右 侧 部 分 为 1-B， 即 


Po(Reject)=1-p 。 


从 附 图 1 可 以 看 出 ，Pe(Reject) 的 计算 涉及 多 个 参数 : 临界 值 (ter 间 ， 效 应 量 (Cohen's d) I 
类 错误 率 w2( 双 尾 检 验 ) 等 。 以 计算 后 验 统计 检验 力 为 例 ， 样 本 量 已 确定 ， 计 算 流程 如 下 : 


第 一 步 : 根据 已 有 数据 确定 效应 量 d = 全 = 饶 。 其 中 必 和 几 为 分 别 为 两 个 样本 的 均值 ， 为 两 


2 2 
个 样本 的 合并 标准 差 ，o = [sh = [POA 


ni1+n2z—2 


第 二 步 : 计算 自由 度 df = n1+n2 一 2 
第 三 步 : 查 表 或 使 用 软件 ， 依 据 显著 性 水 平 «a 和 自由 度 df， 确 定 中 心 t 分 布下 的 临界 值 


tcrit。 在 某 些 情况 下 ( 非 中心 t 分 布 )， 还 需要 加 入 非 中 心 参数 6 = af 。 对 于 双 尾 检验 ， 临 界 值 为 
terit = t(1 — a/2,df). 
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第 四 步 : 计算 双 尾 的 积累 概率 。 在 中 心 t 分 布 情况 下 ， 使 用 累积 分 布 函 数 FE， 有 : 
@ E: P(T<—terit | df )=F (-terit | df) 
© AH: P(T<tei | df)=F(teri | df) 


办 此， 统计 检验 力 power = 1 — [F(terit | df) — F(-terie | df] 


综 上 所 述 ， 后 验 统计 检验 力 由 a 和 df 决定 。 如 果 是 非 中 心 t 分 布 ， 还 需 加 入 非 中 心 参数 
5。 对 于 不 同 的 统计 方法 ， 结 论 大 致 一 致 : 


1. 效 应 量 : 效应 量 表示 两 个 分 布 之 间 的 差异 。 效 应 量 越 大 ， 代 表 两 个 分 布 之 间 的 实际 差异 越 
大 ， 在 给 定 样本 量 和 类 错误 率 a 的 情况 下 ，tera 不 变 ， 统 计 检 验 力 (Power) 越 高 。 如 果 为 非 中 
心 上 分布 ， 还 需 考虑 非 中 心 参数 ， 但 结论 保持 不 变 。 


2. 样本 量 : 样本 量 影响 标准 误 。 当 样本 量 增 加 ， 合 并 标准 差 的 估计 更 精确 ， 自 由 度 df 也 增 


大 ， 导 致 terit 下 移 ， 从 而 提高 统计 检验 力 。 在 其 他 参数 固定 的 情况 下 ， 样 本 量 增 大 会 提高 估计 效应 
量 的 精确 度 。 


3.1 类 错误 率 a: I 类 错误 率 a 决定 ter 的 位 置 。o WK, BP 越 小 ， 统 计 检验 力 越 大 。 在 实践 


H, a 通常 固定 为 0.05。 因 此 ， 当 不 是 预先 决定 op 比值 的 研究 时 ， 通 常 只 有 样本 量 、 效 应 量 和 
统计 检验 力 可 以 调整 。 


4.7 临界 值 (tcyie): trah 1 类 错误 率 a 和 自由 度 df 共同 决定 ， 
拒绝 原 假设 的 临界 点 。 


MW 


] 于 假设 检验 中 ， 作 为 是 否 
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